Recherche de documents similaires sur le web par segmentations hiérarchiques et extraction de mots-clés
نویسنده
چکیده
Résumé. La recherche de documents similaires est un processus qui consiste à trouver les documents présentant des similitudes, comme la copie ou la reformulation, sur des bases documentaires ou sur internet. Elle est utilisée notamment pour protéger la propriété intellectuelle de productions issues de l’enseignement, de la recherche ou de l’industrie. Dans cet article, nous définissons une approche automatique pour permettant d’extraire des mots-clés d’un document en effectuant un bouclage sur une succession de découpage de plus en plus petit. Cette approche permet d’obtenir des mots-clés impossibles à obtenir par une approche globale notamment quand la thématique, le style ou le contenu d’un document varient dans le document. L’objectif est de permettre la détection des documents présentant des similitudes en utilisant uniquement des mots-clés.
منابع مشابه
Modèle unifié pour la recherche d'information sémantique
Résumé : Un modèle documentaire permet de définir les unités d’indexation (mots, termes, etc.) et de les relier aux documents dans lesquels elles apparaissent. Il permet également de définir les liens entre documents ou portions de documents (ex. citation). Les modèles documentaires sont généralement exploités en recherche d’information pour la représentation des documents et des requêtes et il...
متن کاملUn outil de détection automatique de thèmes
Vu la quantité de documents numériques disponible sur le Web et la nécessité de mettre au point des techniques de recherche efficaces, les systèmes de recherche d'information font de plus en plus appel aux techniques de Traitement Automatique des Langues (TAL) qui exploitent les informations syntaxiques ou sémantiques, dans le but d’améliorer la qualité des résultats fournis par les moteurs de ...
متن کاملUne nouvelle approche pour indexer les documents manuscrits anciens Une nouvelle approche pour indexer les documents manuscrits anciens
Résumé : Dans cet article nous présentons une architecture pour la description et la recherche de documents manuscrits anciens. Nous utilisons une décomposition en Curvelets des images pour indexer les fragments linéaires de l’écriture. Appartenant à la famille des ondelettes, cette transformée nous permet d’avoir plusieurs niveaux de détails. Le schéma général consiste à analyser les orientati...
متن کاملInterrogation à base d'Annotation Sémantique
Résumé. Les approches de la recherche d’information (RI) actuelles ne saisissent pas formellement la signification explicite d'une requête à base de mots-clés mais fournissent une voie confortable pour l'utilisateur qui spécifie ces besoins en informations sur la base des mots-clés. La recherche sémantique promet de fournir des résultats plus précis que la traditionnelle recherche par mots-clés...
متن کاملStructured Indexing Model for Cross-Language Information Retrieval
In recent digital library systems or World Wide Web environment, parallel corpora are used by many applications (Natural Language Processing, machine translation, terminology extraction, etc.). This paper presents a new cross-language information retrieval model based on the language modeling. The model avoids query and/or document translation or the use of external resources. It proposes a str...
متن کامل